home *** CD-ROM | disk | FTP | other *** search
/ CICA 1993 April / CICA MS Windows - April 1993.iso / unzipped / programr / addend / addendum.txt
Text File  |  1992-11-03  |  13KB  |  301 lines

  1. ======================================================================
  2. Unicode 1.0.1 Addendum                                      92.11.03   8:52
  3.  
  4.  
  5.                          UNICODE 1.0.1
  6.  
  7. The following document is an ASCII version of the Unicode 1.0.1
  8. addendum, which has been added to Volumes 1 and 2 of The Unicode Standard.
  9. Because the formatting has been lost and the original text contains non-
  10. ASCII characters, a dollar sign is used as a placeholder instead, and
  11. the text has been modified slightly for readability.
  12.  
  13. Printed copies of the addendum will be sent to Unicode corporate,
  14. associate and individual members. Others may get a printed copy by
  15. sending a stamped, self-addressed envelope to the Unicode Consortium
  16. at the address below, or may get a fax copy on request. Copies of the
  17. ASCII version of this document can also be obtained by anonymous FTP
  18. from Unicode.Org.
  19.  
  20. ________________________________________________________________________
  21.  
  22. Recipient is granted the right to make copies in any form for internal 
  23. distribution and to freely use the information supplied for the purposes of 
  24. creating and implementing products that comply with the Unicode Standard.
  25.  
  26. The authors and publishers have taken care in preparation of this work, but 
  27. make no expressed or implied warranty of any kind and assume no responsibility 
  28. for errors or omissions. No liability is assumed for incidental or 
  29. consequential damages in connection with or arising out of the use of the 
  30. information or programs contained herein.
  31.  
  32. Copyright (c) 1991-1992, Unicode, Inc. All Rights reserved. Unicode (tm) is a 
  33. registered trademark of Unicode, Inc.
  34.  
  35. ________________________________________________________________________
  36.  
  37. 1. Introduction
  38.  
  39. As discussed in Volumes 1 and 2, small changes have been made to Unicode 
  40. 1.0 in order to incorporate it into the international character encoding 
  41. standard, ISO 10646, which was approved by ISO as an International 
  42. Standard in June, 1992. The Unicode Consortium plans to issue Unicode 
  43. 1.1 in early 1993. The character content and encoding will be identical 
  44. to that of ISO 10646. To that end, Unicode 1.1 will include 
  45. approximately 5,400 additional characters from ISO 10646 that are not 
  46. already in Unicode 1.0.
  47.  
  48. In order to expedite use of Unicode in the interim, the Unicode 
  49. Consortium is issuing an intermediate version, Unicode 1.0.1, which 
  50. consists of Unicode 1.0 modified by the changes necessary to make the 
  51. character codes a proper subset of ISO 10646. 
  52.  
  53. This paper describes the differences between Unicode 1.0.1 and Unicode 
  54. 1.0 (for more information, see Volume 1, pp. xix-xx and Volume 2, pp.
  55. 4-9 and 427-431). Implementations that use Unicode 1.0.1 as thus defined 
  56. will be completely compatible with Unicode 1.1, and therefore fully 
  57. compatible with ISO 10646.
  58.  
  59. Mapping of Unicode characters to the national and industry standards 
  60. will be finalized in Unicode 1.1 to reflect comments from reviewers and 
  61. alignment with ISO 10646. In early 1993 a technical report will be 
  62. issued that defines the content of Unicode 1.1, including the complete 
  63. revised mapping tables. The mapping tables will be available in soft 
  64. form by anonymous FTP. The technical report will be sent to members of 
  65. the Unicode Consortium (inc. associates & individuals); others may 
  66. obtain copies or information about FTP by contacting:
  67.  
  68.     The Unicode Consortium
  69.     1965 Charleston Road
  70.     Mountain View, California 94043 USA
  71.  
  72.     E-mail: unicode-inc@hq.metaphor.com
  73.     Phone: (415) 961-4189
  74.     Fax:   (415) 966-1637
  75.  
  76.  
  77. 2. Final Zone Allocations
  78.  
  79. The following zone reallocations do not affect any allocated Unicode 1.0 
  80. characters.
  81.  
  82. A. Unicode Allocation
  83. Range               Cells   Name/Contents
  84. U+0000 => U+4DFF    19,968  A-ZONE Alphabets, syllabaries, symbols
  85.                             (the 65 control codes are excluded)
  86. U+4E00 => U+9FFF    20,992  I-ZONE Ideographs
  87. U+A000 => U+DFFF    16,384  O-ZONE Reserved for future assignment
  88. U+E000 => U+FFFF     8,192  R-ZONE Restricted use
  89.                             (FFFE & FFFF are excluded)
  90. B. R-ZONE Allocation
  91. Range               Cells   Name/Contents
  92. U+E000 => U+F8FF     6,400  Private Use Area
  93.                             (Corporate Use starts at F8FF)
  94. U+F900 => U+FFEF     1,776  Compatibility Zone
  95.                             (including presentation forms)
  96. U+FFF0 => U+FFFF        16  Specials
  97.                             (FFFE & FFFF are not character codes,
  98.                             and are excluded)
  99.  
  100. 3. Characters deleted or withdrawn for further study:
  101.  
  102. A. Groups of characters deleted
  103. Range               Group Name
  104. U+0E70 => U+0E74    Thai Phonetic Order Vowel signs
  105. U+0EF0 => U+0EF4    Lao Phonetic Order Vowel signs
  106. U+1000 => U+104C    Tibetan script
  107.  
  108. B. Individual characters deleted
  109. U+03DB          $   GREEK SMALL LETTER STIGMA
  110. U+03DD          $   GREEK SMALL LETTER DIGAMMA
  111. U+03DF          $   GREEK SMALL LETTER KOPPA
  112. U+03E1          $   GREEK SMALL LETTER SAMPI
  113. U+2300          $   APL COMPOSE
  114. U+2301          $   APL OUT
  115.  
  116. 4. Characters unified
  117.  
  118. From    With    Image   Old Name
  119. U+0371  U+0314  $   GREEK NON-SPACING DASIA PNEUMATA
  120. U+0372  U+0313  $   GREEK NON-SPACING PSILI PNEUMATA
  121. U+0384  U+030D  $   GREEK NON-SPACING TONOS
  122. U+04C5  U+049A  $   CYRILLIC CAPITAL LETTER KA OGONEK
  123. U+04C6  U+049B  $   CYRILLIC SMALL LETTER KA OGONEK
  124. U+04C9  U+04B2  $   CYRILLIC CAPITAL LETTER KHA OGONEK
  125. U+04CA  U+04B3  $   CYRILLIC SMALL LETTER KHA OGONEK
  126. U+3004  U+4EDD  $   IDEOGRAPHIC DITTO MARK
  127.  
  128. 5. Characters moved
  129.  
  130. From    To      Image   Old Name
  131. U+0370  U+0345  $   GREEK NON-SPACING IOTA BELOW
  132. U+0385  U+0344  $   GREEK NON-SPACING DIAERESIS TONOS
  133. U+03D7  U+037E  $   GREEK QUESTION MARK
  134. U+03D8  U+0374  $   GREEK UPPER NUMERAL SIGN
  135. U+03D9  U+0375  $   GREEK LOWER NUMERAL SIGN
  136. U+03F3  U+0384  $   GREEK SPACING TONOS
  137. U+03F4  U+0385  $   GREEK SPACING DIAERESIS TONOS
  138. U+03F5  U+037A  $   GREEK SPACING IOTA BELOW
  139. U+05F5  U+FB1E  $   HEBREW POINT VARIKA 
  140. U+32FF  U+3004  $   JAPANESE INDUSTRIAL STANDARD SYMBOL
  141.  
  142. 6. Character blocks rearranged
  143.  
  144. The explicit list will be in Unicode 1.1.
  145. Range               Group Name
  146. U+32D0 => U+32FE    Circled Katakana: The 1.1 characters will be
  147.                     arranged in modern order:
  148.                     e.g., A, I, U, E, O, KA, KI, ...
  149. U+FE80 => U+FEFC    Basic glyphs for Arabic language: The 1.1
  150.                     character shapes will be arranged in different
  151.                     order: Isolate, Final, Initial, Medial
  152.  
  153. 7. Character semantics changed
  154.  
  155. A. Zero Width Joining
  156. U+200C          $J  ZERO WIDTH NON-JOINER
  157. U+200D          $J  ZERO WIDTH JOINER
  158.  
  159. In the merger with ISO 10646, the semantics of these two characters have 
  160. been given a narrow interpretation. This brings added precision to the 
  161. explanation given in Volume 1, page 77.
  162.  
  163. The intent of these characters is to address cursive graphical 
  164. connection between the glyphs of a script, e.g. in scripts like Arabic 
  165. whose printed form emulates handwriting. NON-JOINER and JOINER are best 
  166. thought of as behaving like tiny letters that neighboring glyphs may 
  167. connect to (JOINER) or avoid connecting to (NON-JOINER). They are thus 
  168. processed as ordinary cursive letters rather than as control characters.
  169. NON-JOINER and JOINER affect how the two neighboring glyphs connect to 
  170. them, not to each other. As such, they have no direct relationship with 
  171. ligature formation; in particular, JOINER does not in any way request 
  172. that its two neighbors be ligatured to each other. Indeed, both NON-
  173. JOINER and JOINER may break up ligatures by interrupting the character 
  174. sequence required to form the ligature.
  175.  
  176. The precise relationship between cursive appearance and ligatured
  177. appearance may differ from script to script, and therefore the precise
  178. usage of these characters is script-dependent. In the case of Latin
  179. typography, cursiveness (handwriting emulation) and ligaturing are
  180. independent. Thus the text on Volume 1, page 77, may be clarified as
  181. follows:
  182.  
  183. f + JOINER + i will not form the ligature fi. Instead, if cursive
  184. versions of the f and i are available in the font, each will
  185. independently connect to the JOINER on the appropriate side (having the
  186. same appearance as f + i).
  187.  
  188. Usage of optional ligatures such as => is not controlled by any codes
  189. within the Unicode standard, but is determined by protocols or resources
  190. external to the text sequence.
  191.  
  192. As further illustration, let a hyphen stand for a cursive connection to
  193. a preceeding or following letter. Then in a cursive Latin font we would
  194. get the following results (with N standing for NON-JOINER and J for
  195. JOINER).
  196.  
  197. Unicodes        Rendering
  198. f i s h         f-  -i-  -s-  -h    (optionally using a fi- ligature)
  199. f J i s h       f-  -i-  -s-  -h
  200. f N i s h       f    i-  -s-  -h
  201. f J N i s h     f-   i-  -s-  -h
  202. f N J i s h     f   -i-  -s-  -h
  203.  
  204. With regard to the Arabic script, the statements in Volume 1, page 77,
  205. remain correct. In Volume 2, page 390, Arabic rules L2 and L3, the
  206. JOINER can be used to get the appearance in parentheses.
  207.  
  208. With regard to conjuncts in Indic scripts, the statements in Volume 1,
  209. pp. 53-56, and Volume 2, pp. 399-414, remain correct. However for
  210. clarity, in pp. 399-414 the term ligature should be replaced by the term
  211. conjunct.
  212.  
  213. B. Byte Order Mark
  214. U+FEFF          $J  ZERO WIDTH NO-BREAK SPACE
  215.  
  216. In addition to the meaning of BYTE ORDER MARK, as defined in Volume 1 of
  217. the Unicode standard, the code value U+FEFF may now also be used as ZERO
  218. WIDTH NO-BREAK SPACE (ZWNBSP). For convenience in discussion, it can
  219. also be referred to by this name (which is the ISO 10646/Unicode 1.1
  220. name for U+FEFF).
  221.  
  222. ZWNBSP behaves like a U+00A0 NO-BREAK SPACE in that it indicates the
  223. absence of word boundaries; however, ZWNBSP has no width. For example,
  224. this character can be inserted after the fourth character in the text
  225. "base+delta" to indicate that there should be no line break between the
  226. "e" and the "+" (for more information, see Volume 2, pp. 6-7).
  227.  
  228. 8. Characters added
  229.  
  230. There are a large number of characters that will be added to Unicode 1.1
  231. that will be included in the technical report, as explained above. These
  232. will include the following characters, which were omitted from Unicode
  233. 1.0.
  234.  
  235. U+0A4D          $   GURMUKHI SIGN VIRAMA
  236. U+0A8D          $   GUJARATI VOWEL CANDRA E
  237. U+0A91          $   GUJARATI VOWEL CANDRA O
  238. U+0AC9          $   GUJARATI VOWEL SIGN CANDRA O
  239. U+0B56          $   ORIYA AI LENGTH MARK
  240. U+25EF          $   LARGE CIRCLE
  241. U+FFE8          $   HALFWIDTH FORMS LIGHT VERTICAL
  242. U+FFE9          $   HALFWIDTH LEFTWARDS ARROW
  243. U+FFEA          $   HALFWIDTH UPWARDS ARROW
  244. U+FFEB          $   HALFWIDTH RIGHTWARDS ARROW
  245. U+FFEC          $   HALFWIDTH DOWNWARDS ARROW
  246. U+FFED          $   HALFWIDTH BLACK SQUARE
  247. U+FFEE          $   HALFWIDTH WHITE CIRCLE
  248.  
  249. 9. Character mapping changed
  250.  
  251. From    To      Image   XJIS    Name
  252. U+00AD  U+2010  $   815D    JIS HYPHEN
  253. U+20DD  U+25EF  $   81FC    JIS COMPOSITION CIRCLE
  254.  
  255.  
  256.  
  257.  
  258.                        Volume 2 Errata
  259.  
  260. 1. Page 6
  261. Change in lines 26, 27: ... ZERO WIDTH SPACE can be used to indicate
  262. word boundaries in scripts like Thai...
  263.  
  264. 2. Page 19
  265. The glyphs in Figures 2-14 and 2-15 were printed incorrectly.  The 4
  266. correct glyphs are:
  267. Figure      Image on Left   Image on Right
  268. 2-14        $               $
  269. 2-15        $               $
  270.  
  271. 3. Pages 60,66,75,79,91,131,135,140,143,150,264,277,301,311,343
  272. There are are number of glyphs which were printed incorrectly in various
  273. places in Volume 2.  The most serious are:
  274. Code        Image   Pages
  275. U+71F7      $       60, 131, 264
  276. U+773E      $       66, 135, 277
  277. U+809C      $       75, 140, 301
  278. U+8480      $       79, 143, 311
  279. U+908E      $       91, 150, 343
  280.  
  281. 4. Page 401
  282. Change wording and rule in C3: ...The dead consonant RAd changes to a
  283. non-spacing mark RAx when followed by a consonant cluster. The...
  284.     RAn +   VIRAMAn =>  RAx
  285.  
  286. 5. Page 403
  287. Add L1a: The ZERO-WIDTH JOINER can be used to produce the so-called
  288. eyelash-RA (RAh) used in Marathi. RAh is a spacing half-consonant which
  289. is not subject to special ordering of RAx (O2).
  290.     RAn +   ZWJ +   VIRAMAn =>  RAx
  291.  
  292. 6. Page 404
  293. Change O2 to:
  294.     RAx  +  Cluster =>  Cluster  +  RAx
  295. In processing a line of glyphs, this rule is not applied twice to the
  296. same RAx.
  297.  
  298. 7. Page 429
  299. Line 7 has the period misplaced, and should read:
  300. Visual: .KO ,bmw 500 A SI TI
  301.